Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé

نویسندگان

  • Lorraine Goeuriot
  • Emmanuel Morin
  • Béatrice Daille
چکیده

RÉSUMÉ. Notre objectif est d’automatiser la construction de corpus comparables spécialisés à partir du Web. La comparabilité se base sur trois niveaux : le domaine, le thème et le type de discours. Le domaine et le thème peuvent être filtrés grâce aux mots-clés utilisés lors de la recherche. Nous présentons dans cet article la reconnaissance automatique du type de discours dans des documents spécialisés français et japonais, qui nécessite une analyse linguistique poussée. Une analyse contrastive des documents nous permet de déterminer quelles informations paraissent discriminantes. En s’inspirant des travaux classiques de recherche d’information, nous créons une typologie robuste et linguistiquement motivée basée sur trois niveaux d’analyse : structurel, modal et lexical. Cette typologie nous permet d’apprendre des modèles de classification qui donnent de bons résultats, ce qui montre l’efficacité de cette typologie.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Comparabilité de corpus et fouille terminologique multilingue

RÉSUMÉ. Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l’alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n’est pas possible de disposer ...

متن کامل

Multilingual Compound Splitting (Segmentation Multilingue des Mots Composés) [in French]

Résumé La composition est un phénomène fréquent dans plusieurs langues, surtout dans des langues ayant une morphologie riche. Le traitement des mots composés est un défi pour les systèmes de TAL car pour la plupart, ils ne sont pas présents dans les lexiques. Dans cet article, nous présentons une méthode de segmentation des composés qui combine des caractéristiques indépendantes de la langue (m...

متن کامل

Expansion de requêtes pour la recherche d'information multilingue

1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...

متن کامل

Une méthode d'évaluation de la pertinence des pages Web dans WebSum

Ce travail s’inscrit dans le cadre du projet de recherche WebSum qui est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Afin de produire le résumé, WebSum procède par le classement des réponses récupérées depuis un moteur de recherche (Google) par ordre de per...

متن کامل

Extraction de Caractéristiques Locales: Crêtes et Pics

Résumé— Cet article présente une méthode pour détecter des caractéristiques de type pic et crête dans une image. Ces caractéristiques seront utilisées pour la modélisation et la reconnaissance d’objets. Un point de type crête ou pic est caractérisé localement par des propriétés géométriques de la conique tangente à la surface-image. Deux critères sont utilisés dans notre approche d’extraction: ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2009